Datos reales vs. datos sintéticos en proyectos formativos — cuándo usar cada uno
Uno de los debates más frecuentes entre docentes de simulación es si los proyectos del curso deben usar datos reales —de empresas reales— o datos sintéticos generados con intención pedagógica. Ambas opciones tienen ventajas y limitaciones, y la elección impacta directamente en qué tipo de aprendizaje se genera.
Los datos reales tienen una ventaja enorme: generan contexto. Cuando el estudiante sabe que los tiempos de proceso de esa estación provienen de un cronometrado real, el modelo cobra una dimensión de responsabilidad que los datos ficticios no producen. Además, los datos reales vienen con problemas reales: datos faltantes, outliers, cambios de turno, variaciones estacionales. Aprender a lidiar con eso forma parte de la competencia profesional.
Sin embargo, los datos reales también introducen complejidad que puede desviar la atención del aprendizaje principal. Si el estudiante pasa la mitad del semestre peleando con datos de mala calidad, el aprendizaje de modelado queda en segundo plano.
Los datos sintéticos permiten al docente controlar la dificultad. Se pueden diseñar sistemas con un cuello de botella claro, con variabilidad conocida, con una respuesta "correcta" identificable. Eso es muy útil en los primeros ejercicios, cuando el objetivo es que el estudiante domine las herramientas antes de lidiar con la complejidad de la realidad.
Mi recomendación: datos sintéticos para los primeros dos o tres ejercicios del semestre; datos reales —aunque sean parciales o estimados— para el proyecto final.
Un caso intermedio que funciona bien: datos sintéticos que imitan un sistema real, con las mismas inconsistencias que tendría la realidad pero controladas en magnitud. El docente construye el dataset con intención pedagógica.